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中 文 植物 物种 多 样 性 描述 文本 的 信息 抽取 
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(华东 师范 大 学 商学 院 上 海 200241) 


摘要 : 【 目的 ] 实 现 中 文 植物 物种 多 样 性 描述 文本 中 信息 的 抽取 。[ 方法 ] 以 中 文 植物 物种 多 样 性 本 体 为 支撑 , 采 


取 语 段 、 


语句 、 概 念 逐 级 筛选 和 标注 的 策略 ,依据 规则 抽取 描述 文本 中 的 信息 。[ 结果 】 以 包含 4 734 个 信息 点 


的 样本 测试 , 信息 抽取 的 准确 率 、 召 回 率 、F 值 分 别 为 0.86、0.85、0.85。[ 局 限 ] 针对 目前 未 能 准确 抽取 的 表述 ， 
进一步 完善 规则 集 。[ 结论 】 研 究 方 案 能 有 效 地 实现 中 文 植物 物种 多 样 性 描述 文本 的 信息 抽取 。 
关键 词 : 信息 抽取 ”植物 物种 多 样 性 描述 文本 “中文 信 息 处 理 “本体 
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物种 是 最 接近 生物 的 自然 单元 , 因此 , 物种 描述 
也 就 成 为 生物 学 和 生态 学 研究 的 起 点 。 过 去 的 两 百 多 
年 间 ， 人 类 在 探索 自然 的 过 程 中 形成 了 海量 的 物种 描 
述 文献 。 以 生物 多 样 性 历史 文献 库 (Biodiversity Heritage 
Library, BHL) 为 例 , 截至 2015 年 9 月 27 H, 其 存储 的 
文献 已 超过 4 727 73 X001, 这些 文献 的 有 效 开 发 利用 将 
极 大 地 支持 生物 学 和 生态 学 的 研究 。 从 20 世纪 80 年 
代 的 纸 质 文献 数字 化 , 到 现在 的 大 规模 网 络 共享 , 无 
疑 有 效 提 升 了 这 些 文献 的 传播 和 利用 效率 。 信 息 传递 
方式 和 渠道 的 变化 , 使 人 们 在 获得 丰富 信息 的 同时 ， 
也 产 生 了 巨大 的 筛选 和 处 理 压 力 。 信 息 抽取 技术 的 发 
展 、 成 熟 ,为 问题 的 解决 提供 了 思路 和 方法 。 


1 国内 外 研究 现状 


信息 抽取 就 是 识别 和 提取 文档 中 用 户 感 兴趣 的 内 
容 , 并 以 结构 化 、 语 义 清晰 的 形式 表示 。 该 领域 起 源 
于 文本 理解 研究 , 数字 文本 的 急剧 增长 和 消息 理解 系 
列 会 议 (Message Understanding Conference, MUC) 的 推 
动 , 使 其 逐步 发 展 成 为 自然 语言 处 理 领 域 的 一 个 重要 
分 文 。 


生物 物种 多 样 性 描述 文本 的 信息 抽取 研究 始 于 
20 世纪 90 年 代 中 期 。 迄今 , 虽然 取得 了 一 些 进展 , 但 
远 未 满足 自动 化 地 实现 海量 生物 多 样 性 信息 的 细 粒 度 
组 织 和 语义 检索 的 现实 需求 。Thessen 等 将 国外 研究 分 
为 数字 化 (Digitization) 、 语 义 标注 (Annotation) 、 命 名 
识别 (Names Recognition and Discovery) 、 形 态 特征 提 
取 (Morphological Character Extractiom 四 类 ,并 系统 地 
进行 综述 趾 , 依 据 粒 度 , 笔者 将 形态 特征 的 提取 研究 分 
为 语句 和 概念 两 类 , 具体 如 下 : 

(1) 语句 层 的 形态 特征 提取 人 研究 

物种 描述 具有 基本 一 致 的 模式 。 以 植物 描述 为 例 ， 
一 般 都 是 从 生长 习性 、 根 、 茎 、 叶 、 花 、 果 实 描述 到 
物候 学 特征 。 对 于 较 复 杂 的 器 官 结 构 ， 则 依 其 构成 进 
一 步 展 开 。 壁 如 ,对 叶 的 描述 会 细 化 至 叶柄 、 叶 片 等 
部 位 。 因 此 ,物种 描述 信息 在 整体 上 呈 倒 置 的 树 形 结 
构 。 正 因为 如 此 ,以 语句 为 单位 的 物种 形态 特征 提取 
可 转化 为 逐 层 分 类 问题 。 
具体 实现 一 般 采 用 规则 系统 或 统计 学 习 方 法 ， 当 
然 , 也 可 以 将 两 者 结合 起 来 构建 综合 性 的 算法 。 璧 如 ， 
Vanel 在 人 工分 析 句 法 和 词汇 特征 的 基础 上 开发 解析 


通讯 作者 : 段 宇 锋 , ORCID: 0000-0002-4319-2837, E-mail: yfduan@infor.ecnu.edu.cn。 
*# 本 文系 国家 社会 科学 基金 一 般 项 目 “ 基 于 无 监督 语义 标注 的 网 络 中 文学 术 信息 抽取 研究 ”( 项 目 编号 :11BTQ024) 的 研究 成 果 之 一 。 
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器 ,实现 语句 标注 局 。 郑 家 恒 等 在 聚 类 的 基础 上 , 利用 
主题 分 布 的 特点 对 农作物 种 子 信息 进行 语句 层 标注 叫 。 
Cui 等 则 依据 物种 描述 文本 的 句子 通常 以 表示 植物 结 
构 的 名 词 词组 开头 这 一 句法 特征 , 将 句子 的 先导 词 与 
词 频 分 布 相 结合 建立 语句 标注 算法 。 以 《Flora of North 
America》(FNA) 和 英文 版 《中 国 植物 志 》(FOC) 中 的 
文档 为 测试 样本 , 标注 的 平均 准确 率 和 召回 率 都 在 
0.9 以 上 外。 本 课题 组 与 Cui 合作 , 将 该 算法 修正 后 应 
用 于 中 文 植物 物种 多 样 性 描述 文本 的 语句 标注 。 以 《中 
国 植物 志 》 中 的 文档 作为 测试 样本 ,整体 标注 性 能 
(F 值 ) 达 到 0.93009, 为 了 降低 标注 系统 的 运行 负荷 ,本 
课题 组 尝试 将 先导 词 与 朴素 贝 叶 斯 统计 学 习 方 法 相 结 
合 ,， 其 标注 性 能 (F 值 ) 也 达到 了 0.9020, 上述 研 究 虽 然 
都 获得 了 令 人 满意 的 标注 结果 , 但 都 要 耗费 大 量 的 专 
家 资源 , 而 且 建 立 的 规则 和 训练 数据 很 难 适应 不 同 的 
文本 集 。 鉴 于 此 ， 笔 者 在 朴素 贝 叶 斯 算法 的 基础 上 , 引 
A Bootstrapping 方法 。 采 用 与 前 两 项 研究 相同 的 测试 
集 检验 算法 性 能 , F 值 为 0.9112, 显著 高 于 朴素 贝 叶 斯 
与 先导 词 相 结合 的 算法 P 一 0.05)。 这 一 方法 不 仅 极 大 
地 降低 了 系统 对 训练 集 规模 和 专家 的 依赖 ， 而 且 有 效 
提高 了 标注 性 能 加。 这 也 是 本 研究 在 语句 标注 阶段 使 
用 的 算法 。 

(2) 概念 层 的 形态 特征 提取 研究 

概念 的 语义 理解 是 实现 概念 层 形态 特征 提取 的 关 
键 。 因 此 , 无 论 是 依靠 人 工 还 是 自动 识别 方式 所 有 研 
究 都 建立 了 与 其 目标 相 适 应 的 术语 集 。 在 形式 上 , € 
可 以 表现 为 索引 、 词 汇 表 甚 至 本 体 。 这 也 同时 决定 了 
所 有 研究 采用 的 都 是 基于 规则 的 方法 。 

Taylor 在 分 析 文 本 语法 特征 的 基础 上 , 以 人 工 方 
式 建立 规则 和 词典 , 抽取 《Flora of New South Wales》 
(第 4 卷 ) 和 《Flora of Australia》( 第 19 卷 ) 中 的 物种 部 
位 、 特 征 和 状态 , 召回 率 介 于 0.6-0.8 外 ,这 是 概念 层 物 
种 描述 信息 抽取 最 早 的 研究 。Wood 等 依靠 人 工 创建 
的 领域 本 体 和 GATE 提供 的 正则 表达 式 匹配 能 力 , K 
现 植物 描述 特征 的 抽取 ， 准 确 率 、 召 回 率 为 74% 和 
66%00。Tang 等 改造 Soderland 提出 的 方法 , 依据 有 监 
督学 习 自动 生成 的 规则 , 将 北美 植物 群落 1 600 种 物种 
的 叶子 的 形状 、 大 小 、 颜 色 、 排 列 及 果实 的 形状 特征 填 
充 到 预先 定义 的 模板 , 准确 率 介 于 30965-10094 1; 
Abascal 等 、Diederich 等 将 人 机 交互 引入 特征 抽取 过 
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应 用 认 


程 ， 分 别 建立 了 X-Tract, Terminator 系统 。 在 实现 原 
HE, 两 者 与 上 述 研究 相同 于 Cui 等 采用 启发 式 方 
法 和 句法 特征 生成 规则 , 从 FNA 第 19 卷 和 《Treatise 
on Invertebrate Paleontology ) (TIP)H 部 分 分 别 取 400 
篇 文档 进行 测试 。 前 者 在 两 个 文本 集中 抽取 的 准确 率 
和 召回 率 分 别 是 0.63、0.6 和 0.52、0.43, 后 者 为 0.91、 
0.9 fll 0.8, 0.870591, 

由 于 中 文 在 构 词 、 句 法 等 方面 与 英文 差异 显著 ， 
所 以 , 国外 的 研究 成 果 基 本 无 法 直接 应 用 于 中 文物 种 
描述 文本 的 信息 抽取 。 迄 今 , 国内 与 本 项 目 相 似 的 研 
究 只 有 两 项 。 其 一 , 沙 丽 华 依靠 建立 的 玉米 本 体 标注 
文档 中 的 概念 、 属 性 和 实例 , 并 以 三 元 组 表示 [4 该 研 
究 与 本 项 目的 整体 思路 比较 相似 , 但 处 理 的 并 非 物 种 
多 样 性 描述 文本 , 是 仅 涉 及 玉米 领域 ; 其 二 , 石 静 在 
植物 本 体 概念 系统 的 支持 下 , 标注 植物 描述 文本 中 出 
现 的 概念 和 实例 , 实现 句子 分 类 , 进而 据 此 选择 抽取 
模板 并 依据 定义 的 规则 和 标注 结果 抽取 实体 填充 模 
板 避 )， 该 研究 采用 固定 模板 和 人 工 构建 的 规则 ,通常 
会 面临 灵活 性 、 适 应 性 的 问题 。 

本 文 以 实现 中 文 植物 物种 多 样 性 描述 文本 中 信息 
的 抽取 为 目标 , 希望 建立 的 方案 既 能 用 于 单一 需 官 结 
构 特 征 的 抽取 , 也 能 支持 全 文本 信息 抽取 , 且 在 不 同 
文本 集 具 有 良好 适应 性 。 因 此 , 关键 在 于 最 大 限度 地 
识别 和 标注 领域 概念 , 这 是 选择 基于 本 体 的 方法 最 主 
要 的 原因 ; 而 且 , 随 着 本 体 概念 体系 的 完善 ， 系统 的 
抽取 性 能 和 适应 性 将 不 断 提升 , 这 是 采用 基于 本 体 的 
方法 的 另 一 个 原因 。 


2 信息 抽取 方案 


本 研究 将 中 文 植物 物种 多 样 性 描述 性 文本 的 信息 
抽取 分 解 为 4 项 任务 : 构建 领域 本 体 、 建 立 训练 集 数 
据 、 文 本 预 处 理 、 标 注 和 抽取 ,如 图 1 所 示 。 

2.1 构建 中 文 植物 物种 多 样 性 领域 本 体 

本 体 是 概念 模型 的 明确 的 规范 说 明和 定义 ["。 领 
域 本 体 提供 了 特定 领域 中 概念 和 关系 的 描述 。 在 研究 
方案 中 , 领域 本 体 主要 有 三 方面 的 作用 : 解析 本 体 中 
的 概念 ， 生 成 领域 词典 ， 从 而 提高 系统 分 词 的 精确 性 ; 
将 概念 的 语义 类 作为 CRF 算法 的 特征 , 识别 待人 处理 文 
本 中 的 新 概念 ; 支持 文本 标注 ， 并 依据 本 体 建立 所 标 
注 概 念 之 间 的 关系 , 实现 信息 抽取 。 本 研究 以 BFO 为 


ChinaXiv 合 作 期 刊 


Je 


总 第 266 期 20164 第 1 期 


a Soo | _Web 文 档 获 取 E 
: ! 文 (Web Crawler) i 
| EE 建 
| ! 预 立 
: 中 文 植物 物种 多 ; 处 Web 文 档 训 
| 样 性 领域 本 体 MN. : 
构 TE 4 
g bod RIZ jut - 
领 (Jena) ME (DOM) GUTE ' 
E = 
休 »N Hong | 
] ES (VSM) 
rd 语句 级 语义 标注 s: : 
(NB+Bootstrapping) 语料库 ! 
标 ER E 
A 概念 识别 
抽 (CRF) 
取 
| 标注 与 抽 本 
| (规则 ) 
: 中 文 植物 物种 形式 化 表示 
D 多 样 性 知识 库 (三 元 组 ) 


图 1 研究 思路 和 方法 


上 层 本 体 , 采用 KACTUS 法 复 用 PO, 建立 的 中 文 植 ” 色 ” 是 颜色 的 实例 ,如 果实 体 “ 颜 色 ” 未 包含 这 两 个 实例 ， 


物 物种 多 样 性 本 体 含有 720 个 类 , 4 000 多 个 实例 。 就 难以 判定 该 句 是 描述 花 的 颜色 ,也 就 无 法 准确 提取 
(1) 类 相应 的 信息 。 
DAH PO 的 类 。 保留 PO 的 以 下 类 项 : 植物 结构 下 的 实例 的 数量 众多 。 在 依靠 领域 专家 定义 的 基础 上 ， 


复合 植物 结构 的 基本 部 分 、 毛 状 体 、 多 组 织 植物 结构 和 复 。 ”本 研究 还 采用 了 自动 识别 技术 , 在 文档 处 理 过 程 中 发 
合 植 物 结构 ; 形成 空间 的 植物 解剖 结构 ; 果实 生长 阶段 ; 现 和 填充 新 实例 。 具 体 方式 为 : 
复合 植物 器 官 生 长 阶段 下 的 花 的 生长 阶段 。 并 且 , 合并 整 OD 采用 条 件 随 机 场 (CRFs) 算 法 识别 候选 实例 ; 
理 如 下 类 项 : 将 植物 结构 下 保留 的 部 分 及 “形成 空间 的 植 @@ 人 工 第 选 候选 实例 ， 确 定 新 增 实例 列表 ， 

物 解 冲 结 构 ” 合 并 为 类 “植物 解剖 结构 ”; 将 果实 生长 阶段 、 图 逐 行 读 取 列 表 ， 向 本 体 文件 中 添加 相应 实例 描述 语 


复合 植物 器 官 生长 阶段 下 的 花 的 生长 阶段 合并 成 为 类 “ 植 名。 壁 如 ,增加 形状 实例 “长 圆 状 卵 形 ”时 向 本 体 文件 中 添加 
物 生长 阶段 "*。 同 时 ， 对 复 用 的 类 添加 对 应 的 中 文 术语 ， 并 语句 : 


使 其 成 为 主要 描述 。 «1-- http://www.ontology/plant-species-diversityf-K A Ak Sp 72. --> 
@) 增 添 类 。 增 加 植物 分 类 、 植 物 空间 部 位 、 物 种 和 部 位 <owl:NamedIndividual rdf:about-" &psd; K E] J& ÍP 72 "> 

的 属性 、 度 量 单位 、 程 度 限定 等 类 。 <rdf:type rdf:resource="&psd; 形 状 "/> 
(2) 实 例 </owl:NamedIndividual> 
PO 中 只 有 类 和 关系 , 没有 实例 。 本 研究 构建 本 体 

的 目的 是 支持 植物 物种 多 样 性 描述 文本 中 知识 的 抽 DAH PO 的 关系 ,包括 : adjacent to,derives by mani- 


pulation from, developmentally preceded by, part of, has 


取 。 前 述 表 征 植 物 物种 多 样 性 特征 的 属性 类 ， 如 颜色 、 
形状 、 质 地 等 , 不 包含 具体 的 实例 。 在 缺乏 实例 的 情 


part, develops from, has participant, located in, participates - 


in, preceded by. 


况 下 , 无 法 有 效 地 抽取 植物 物种 多 样 性 信息 。 例 如 , 在 加 增添 关系 ， 具体 如 下 : 
"AE 5, 白色 或 淡 红 色 ” 这 名 描述 中 ,“ 白 色 ” 和 “ 淡 红 1) 特 征 关系 。 用 于 呈现 植物 结构 与 相关 特征 的 关联 。 包 
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括 has color, has shape, has arrangement, has texture, 
has growth form, has accy structure, distributed in, has 
flower period, has fruit period, has height, has weight, 
has length, has diameter, has quantity. 

2) 分 类 关系 。 用 于 揭示 植物 分 类 知识 。 包 括 has class, 
has order, has family, has gensus, has species. 

3) 附 属 关 系 。 用 于 完善 相关 特征 描述 。 包 括 has unit, 
has degree; 
2.2 ”建立 训练 集 

Web 文本 的 规范 化 程度 低 、 文 档 集 之 间 的 差异 大 ， 
训练 数据 的 代表 性 对 性 能 具有 重要 影响 。 以 兼顾 性 能 
和 通用 性 为 原则 ,本 研究 采取 随机 抽样 和 分 层 抽 样 相 
结合 的 方式 从 权威 数据 源 《 中 国 植物 志 》 中 获取 
1000 个 物种 的 描述 文本 , 共 涉 及 37 个 科 , 每 科大 约 
30 个 种 。 每 个 物种 的 描述 都 独立 地 以 TXT 文档 形式 
存储 。 

在 研究 方案 中 , 文本 预 处 理 任务 的 块 识 别 过 程 、 
言 息 抽 取 模 块 的 语句 级 标注 和 概念 识别 过 程 分 别 采 用 
不 同 的 机 器 学 习 方法 , 需要 建立 相应 的 训练 数据 。 具 
体 如 下 : 

(1) 支持 块 识别 的 训练 数据 

文本 预 处 理 中 的 块 识别 采用 向 量 空间 模型 (Vector 
Space Model, VSM), 可 以 直接 以 TXT 文档 的 内 容 作 
为 训练 数据 。 

(D 支持 语句 级 标注 的 训练 数据 

语句 级 标注 需要 解析 到 在 句法 上 完整 的 句子 , 因 
Jb, 对 1000 个 TXT 文档 中 的 内 容 以 “;* 和 “。” 为 标识 ， 
以 人 工 方式 逐 句 标注 。 使 用 的 语义 标签 包括 “plant- 


habit-and-life-style”, “roots”, “stems”, “buds”, “leaves”, 


“flowers” , “fruits” 、 “seeds” , “spore-related-structures” , 


*phenology"fll*compound", FEF, “compound” H FAR 
WER ÉOWPRRSXRRUL EEA AE, 例如 “ 苞 
片 和 小 苞 片 线形 ”。 每 个 TXT 文档 对 应 一 个 标注 后 形 
成 的 同名 XML 文档 , 该 文档 集 即 为 语句 级 标注 的 训 
练 数据 。 

(3) 支持 概念 识别 的 训练 数据 

概念 识别 过 程 采 用 CRF 算法 ， 以 字 、 词 为 处 理 单 
元 。 为 提高 识别 性 能 , 本 研究 依据 语句 级 标注 训练 数 


CDhttp://ictclas.nlpir.org. 
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据 含 有 的 语义 标签 (compound” 除 外 ),， 构 建 相 应 的 训 
练 数 据 文档 (TXT 格式 )。 训 练 数据 以 词 、 词 性 、 词 长 、 
相关 度 、 信 息 炉 为 特征 , 采用 SBIEO 作为 标注 集 ( 见 
2.4 节 中 的 “(4) 概 念 识别 ”)。 
2.8 ”文本 预 处 理 

使 用 爬虫 从 网 上 获取 文档 。 由 于 这 些 文档 的 格式 、 
结构 、 编 码 方式 可 能 各 不 相同 ， 因 而 需要 进行 规范 化 
处 理 , 并 筛选 出 与 主题 相关 的 文本 块 ,传递 给 信息 抽 
取 模 块 。 

(1) 网 页 清洗 

网 页 是 使 用 标记 语言 构建 的 半 结 构 化 文本 。 将 网 
页 解析 成 DOM 树 ， 去 除 与 主题 无 关 的 <script> 、 
<link> «img», 、<style> 等 元 素 ,提取 文本 节点 的 内 容 
并 进行 规范 化 处 理 , 包括 转换 编码 方式 、 剔 除 乱 码 和 
空格 、 将 半角 的 标点 符号 转化 为 全 角 。 

(2) 块 识别 

并 非 网 页 的 所 有 文本 节点 都 与 描述 内 容 相 关 ， 因 
此 ,本 研究 采用 向 量 空 间 模型 ， 以 0.8 HEE, HEX 
本 节点 内 容 。 
2.4 信息 抽取 

言 息 抽取 的 基础 是 计算 机 能 够 理解 构成 自然 语言 
文本 的 字符 ( 串 ) 的 语义 以 及 相互 间 的 语义 关系 ， 因 而 ， 
概念 标注 和 关系 识别 无 疑 是 实现 抽取 的 关键 。 因 为 领 
域 本 体 涵 括 了 对 概念 和 关系 的 描述 , 所 以 , 本 研究 将 
本 体 作 为 实现 信息 抽取 的 关键 支撑 要 素 。 并 且 , 方案 
采用 了 从 语句 到 字符 逐 级 细 化 的 标注 过 程 ， 以 提高 标 
注 的 准确 性 ， 进 而 达到 提升 抽取 性 能 的 目的 。 

(1) 语句 标注 

语句 标注 采用 与 Bootstrapping 方法 相 结 合 的 朴素 
贝 叶 斯 算法 。 实 验 结果 表明 ,种 子 数 达到 90 Bp, 该 方 
法 的 标注 性 能 就 已 超过 依靠 大 规模 人 工 训练 集 支 持 的 
朴素 贝 叶 斯 算法 中 ,而 建立 样本 量 仅 为 90 的 训练 数据 ， 
耗费 的 时 间 和 专家 资源 几乎 可 以 忽略 不 计 。 

(2) 概念 标注 

在 领域 词典 的 支持 下 , 调用 ICTCLAS "实现 分 词 
并 添加 词性 或 语义 标识 。 语 句 标注 为 概念 标注 提供 两 
方面 的 支持 : 一 是 验证 分 词 的 正确 性 , 尤其 是 表示 描 


述 主体 的 概念 ; 二 是 语句 缺 省 表示 描述 主体 的 概念 时 ， 
将 语句 标注 结果 作为 补充 的 依据 。 概 念 标注 需要 领域 
词典 的 支持 , 并 事先 定义 标注 集 。 

生成 领域 词典 

Jena 是 基于 Java 开发 的 开放 源 代码 语义 网 工具 , 提供 
了 面向 本 体 的 模型 处 理 、 解 析 查 询 、 基 于 规则 的 推理 、 持 续 
性 存储 、 不 同 本 体形 式 的 接口 支持 等 多 种 功能 CO。 其 中 ， 解 
析 模 块 具有 大 量 支持 对 元 素 进 行 操作 的 函数 。 本 研究 利用 
listClasses()、listObjectProperties()、listDatatypeProperties()、 
listSuperClasses()、getDomain() 等 函数 解析 本 体 。 以 “总 腋 ” 
为 例 , Jena 的 输出 为 : 

类 URI: http://purl.obolibrary.org/obo/PO_0025225 

类 名 : http://purl.obolibrary.org/obo/PO_0025225 

标签 : UK 
类 型 : subClassOf 
值 : http://purl.obolibrary.org/obo/PO 0025224 (RU IK) 
类 型 : subClassOf 
值 : 植物 构成 
类 型 : subClassOf 
值 : http://purl.obolibrary.org/obo/PO_0025131( 植 物 结构 ) 
描述 类 型 : subClassOf 

类 描述 值 : http://purl.obolibrary.org/obo/PO_0025117( 珠 孔 ) 

注 : 本 研究 构建 的 本 体 复 用 了 PO;“()” 是 为 便于 理解 解析 结果 
而 添加 的 注释 。 

从 上 述 解 析 结 果 中 提取 类 和 实例 的 相应 信息 构建 领域 
词典 , 词 条 格式 为 “XX instance/class “class””。 其 中 , XX 为 概 
念 的 标签 ; instance/class 用 于 表示 概念 的 类 型 ; “class" 则 表明 
该 概念 所 属 类 。 如 概念 为 类 ， 此 处 标识 与 XX 相同 。 璧 如 ， 上 
例 中 的 “总 腋 ” 对 应 的 条 目 形式 为 “ 蕊 腋 class E” o 
@@ 标 注 集 
标注 集 是 表示 词汇 语义 的 标识 集合 ,用 以 标记 分 词 文 
件 中 词汇 的 语义 信息 。 标 注 集中 大 部 分 标识 的 涵义 对 应 于 本 
体 第 三 层 的 概念 和 相应 属性 。 此 外 , 还 有 少量 标识 与 本 体 中 
的 概念 无 关 ， 但 与 物种 特征 的 描述 密切 相关 。 璧 如，“ 密 被 
和 “ 足 被 "难以 纳入 本 体 的 概念 系统 ,但 却 常常 出 现 于 物种 解 
剖 结 构 的 特征 描述 之 中 。 依据 信息 抽取 的 需要 ， 本 研究 设 定 
以 下 标识 ， 如 表 1 所 示 。 

标注 格式 为 “标识 ”:class/ins-‘class””。 与 词 对 应 的 概念 
若 在 本 体 中 为 类 ,“:” 后 使 用 “class” 若 为 实例 ,“:” 后 则 使 用 
“ins-” 加 其 所 属 类 名 。 由 于 标注 在 分 词 过 程 中 同步 进行 ,类 名 
不 宜 使 用 中 文 形式 ,因此 ,实例 所 属 类 以 英文 或 OBO 编号 
表示 。 领域 词典 之 外 的 字 词 和 符号 则 保留 分 词 时 标注 的 词性 
标识 。 以 色 儿 茶 属 名 儿 茶 种 的 描述 (部 分 ) 为 例 ， 标注 结果 如 
下 所 示 : 

藤 状 /szx:ins-growth form A/c 攀援 灌木 /szx:ins-growth form , 
/wd 高 /xt:ins-arrangement 达 /v Sm 米 /dw:ins-unit : /wp 幼 枝 
/jg:ins-PO_0025073 Æ/v 毛 /jg: ins-PO 0000282 , /wd 老 枝 /jg:ins- 
PO 0025073 黄 褐色 /ys:ins-color , /wd 平滑 /zd:ins-texture 无 /V 毛 
/jg: ins-PO_0000282 。/wj 
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表 1 概念 标注 集 


标识 涵义 

jg 植物 解剖 结构 

ys 颜色 

XZ 形状 

xt Eds 

zd 质地 

SZX 生长 型 

于 描述 植物 结构 上 生长 有 其 他 附属 结构 

PP 的 特定 连接 词 ， 如 “ 密 被 "、“ 硫 被 "等 
kj 植物 空间 部 位 

hq 花期 

gq 果 期 

dm 地 域名 称 

cd 程度 限定 

dw 度量 单位 


会 出 现在 特定 植物 部 位 上 但 并 不 存在 于 本 体内 
的 特定 对 象 ， 如 "点 ”、“ 网 格 纹 "等 


(3) 抽取 规则 和 抽取 过 程 

抽取 规则 

一 方面 , 本 研究 试图 建立 具有 广泛 适用 性 的 描述 性 文 
本 信息 抽取 方案 ; 另 一 方面 研究 选择 的 物种 多 样 性 领域 不 
仅 种 间 差 异 巨 大 , 而 且 同 一 物种 在 不 同文 本 集中 的 描述 也 
存在 差异 。 因 此 , 本 研究 的 基本 思路 是 在 最 大 限度 地 识别 领 
域 概 念 的 基础 上 , 尽 可 能 完整 地 抽取 描述 文本 所 含 信息 。 由 
于 没有 预先 定义 的 模板 ， 从 知识 共享 和 支持 应 用 本 体 构建 
的 角度 出 发 ， 笔 者 采用 RDF 模型 表示 被 识别 和 抽取 的 信息 。 
RDF 表达 式 的 基本 结构 是 三 元 组 , 每 个 三 元 组 由 一 个 主体 、 
一 个 谓词 和 一 个 客体 组 成 。 在 本 研究 中 , 主体 通常 是 被 描述 
的 物种 或 器 官 结构 (本 体 中 的 类 或 实例 ), 谓词 是 其 所 具有 的 
属性 (本 体 中 定义 的 属性 ), 客体 是 属性 的 值 (本 体 中 的 类 、 实 
例 或 文字 )。 

依据 已 标注 语句 构建 三 元 组 的 基本 过 程 是 : 通过 标签 
匹配 判定 所 描述 的 特征 (谓词 ) 及 特征 值 (客体 ); 依据 客体 的 
类 型 和 谓词 确定 主体 的 类 型 ; 搜寻 与 之 匹配 的 标签 确定 被 
描述 对 象 (主体 )， 或 依据 上 下 文 关 系 补 充 被 描述 对 象 。 为 此 ， 
笔者 利用 正则 表达 式 编写 了 一 组 规则 。 

根据 适用 范围 ， 这 些 规则 被 分 为 通用 规则 和 专用 规则 
两 类 : 

1) 通 用 规则 ， 即 针对 具有 共性 的 描述 形式 定义 的 提取 规 
JW], ZAe, 花 准 、 叶 、 茎 的 描述 往往 都 会 涉及 颜色 、 形 态 等 


被 赋予 标识 “ys:ins-color”。 通 过 本 体 和 领域 词典 可 以 判定 ， 
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“ 深 绿 色 ”、“ 绿 色 ” 是 “颜色 ”类 的 实例 ,， 值 域 为 “其 i 
TEX*has color", “has_color” 的 定义 域 为 “植物 解剖 结构 ”。 结 
合 标识 “jg” 可 形成 三 个 三 元 组 :“ 叶 片 的 上 面 ?has_color 深 绿 
E”. “$” has_color ké”, “JEE H "has color" é”. 

2) 专 用 规则 ， 即 针对 叶 、 茎 、 花 这 三 种 复合 器 官 的 一 些 
特有 描述 形式 而 定义 的 提取 规则 。 壁 如 ,在 描述 花 的 语句 中 
出 现 “' 植 物 解剖 结构 ;数量 ”的 形式 ， 则 可 推断 其 为 描述 花 
内 部 结构 的 数量 ， 抽 取 时 需 补充 信息 并 合理 设 定语 序 。 例 如 ， 
"iE 6E GR 2” 的 表示 结果 为 “ 花 ”has part [3E 46 78 
&&"has quantity"2"]. 

@ 规 则 调用 逻辑 

从 性 能 出 发 ,遵循 “从 特殊 到 一 般 ” 的 准则 调用 规则 ， 具 
体 过 程 如 图 2 所 示 : 


输出 提取 


H 
结果 


图 2 抽取 规则 调用 逻辑 图 


es 信息 识别 
除 字符 所 携带 的 显 性 信息 外 , 文本 还 含有 一 些 未 通过 
字符 表达 的 隐 性 信息 。 这 类 隐 性 信息 基本 都 出 现在 结构 比较 
复杂 的 复合 器 官 描述 中 。 辟 如， 前 述 “ 退 化 雄 苍 2? 就 是 比较 
典型 的 例子 。 类 似 情况 , 使 用 专用 规则 补充 其 隐藏 的 信息 。 
此 外 ， 由 于 物种 多 样 性 描述 文本 中 的 身子 (以 “。”、“;” 
为 分 隔 符 ) 较 长 ， 结 构 复 杂 , 而 且 常 涉及 多 个 描述 主体 ,因此 ， 
以 子 句 (以 “,” 为 分 隔 符 ) 作 为 分 析 和 抽取 的 基本 单元 。 这 种 处 
理 方 式 的 优点 在 于 显著 降低 了 句子 的 分 析 难 度 ,， 但 同时 也 
带 来 主语 ( 即 描述 主体 ) 信 息 缺 损 的 问题 。 针 对 这 一 问题 ， 分 
两 种 情况 补充 描述 主体 : 
1) 组 合 性 补足 。 若 当前 子 句 中 有 表示 空间 部 位 的 概念 
(以 kj” 标识 )， 则 将 前 一 子 句 的 描述 主体 和 当前 子 句 中 表示 
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空间 部 位 的 概念 拼接 ， 构 成 当前 子 多 的 描述 主体 。 例 如 , 前 
例 中 的 子 名 “上 面 深 绿色 ”。“ 上 面 " 是 表示 植物 空间 部 位 的 概 
念 , 与 前 一 子 句 的 描述 主体 “叶片 ”拼接 , 组 合成 当前 子 句 的 
描述 主体 “叶片 的 上 面 ”。 

2) 顶 蔡 性 补足 。 若 当前 子 句 中 没有 表示 植物 空间 部 位 的 
概念 ， 则 直接 以 前 一 子 句 的 描述 主体 作为 当前 子 句 的 描述 
主体 。 例如， 对 于 前 例 中 的 子 句 “长 1622 BOR", 程序 将 直 
接 补充 前 一 子 句 的 描述 主体 “ 花 掌 ”。 

@ 抽 取 过 程 示例 

了 清晰 地 呈现 规则 在 抽取 过 程 中 的 作用 方式 ， 以 “ 叶 
纸 质 至 厚 纸 质 , 互生 或 在 短 枝 顶端 绪 生 ， 孵 状 椭圆 形 或 孵 状 
AW, K 3-6 厘米 ， 宽 1.6-3.5 厘米 ,顶端 国 形 或 印 ， 常 有 
小 尖 头 , 基部 圆 形 或 近 心 形 ， 上面 绿色 , 无 毛 , TAKÉ 
色 , 仅 脉 腋 被 琉 微 毛 ,， 侧 脉 每 边 8-10 条 ;” 中 的 内 容 为 例 具 
体 说 明 。 

1) 规 则 的 基本 作用 方式 。“ 叶 纸 质 至 厚 纸 质 ”----->I. 识 别 
出 “ 纸 质 ”和 “ 厚 纸 质 ”这 两 个 标 为 “zd? 的 特征 词 , 借以 质地 的 
定义 域 寻 得 前 方 标 记 为 ‘jg 的 “ 叶 ” 同时 获取 关系 
“has_texture”， 最 终 确 定 信 息 为 “ 叶 ”has texture“ 纸 质 ”、 
“athas texture“ 厚 纸 质 ”"。II. 同 时 保留 该 名 中 主语 “ 叶 ”。 

2) 复 合 结构 解析 及 代替 性 主语 补足 。“ 互 生 或 在 短 枝 顶 
端 徐 生 ”---->I. 拆 分 复合 名 为 “互生 ”“ 在 短 枝 顶端 簇 生 ” 这 两 
和 句 短 句 。II. 通 过 保留 主语 对 分 句 缺 失 成 分 进行 补足 ， 补 足 后 
分 别 为 “ 叶 互 生 ” 和 “ 叶 在 短 枝 顶 端 狂 生 ”,III. 参 照 上 例 解析 关 
系 ， 得 到 “ 叶 ?has_arrangement 互生 ”“ 叶 ”has_arrangement 
ce ZE RES. 

3) 数 据 属性 识别 。“ 长 3-6 厘米 ”----->[. 识 别 得 到 标记 为 
‘xt 的 “长 "、 标 记 为 ‘m" 的 “3-6”、 标 记 为 ‘dw” 的 “厘米 ”。 了 I. 通 
过 组 合 匹 配 判 断 确认 捕捉 到 内 容 为 “长 ”的 数据 属性 ， 以 “长 ” 
为 条 件 得 到 关系 has length， 由 于 标记 ‘dw’ 的 出 现 还 会 增加 
一 层 为 “3-6”has unit* 厘 米 ” 的 附属 关系 ,并 进一步 组 合 获得 
has_length[“3-6” has_unit“ Æ X”] [I 通过 上 一 层级 的 保留 主 
语 对 缺失 主语 进行 补足 ， 得 到 “ 叶 ?has length. [“3-6” 
has_unit“ 厘 米 ”]。 

4) 复 合 结构 解析 、 组 合 性 主语 补足 、 程 度 识别 。“ 基 部 
形 或 近 心 形 ”----->I. 拆 分 复合 铅 为 “基部 圆 形 "” 和 "基部 近 心 
形 ”。 开 .通过 “基部 ”的 标记 守 j 可知 需 进行 组 合 性 补足 ， 从 而 
dd 句 “ 叶 基部 圆 形 ” 和 “ 叶 基 部 近 心 形 ”。III. 针 对 

“ 叶 基 部 近 心 形 ” 中 标记 为 ‘cd 的 “ 近 ” 与 紧邻 其 后 的 标记 为 
*xz 的 “ 心 形 ” ^ 断 调 取 “has degree" X A, W X c 
。IV. 参 照 通用 提取 机 制 ， 整合 附属 关系 ， 
Re hi shape“ 圆 形 ” 和 “ 叶 基 部 ”has shape[ 
形 ”has degree“ 近 ”|]。 

(4) 概念 识别 

概念 系统 的 完备 性 是 影响 信息 抽取 性 能 最 重要 的 
因素 。 如 果 领 域 本 体 已 经 非常 完善 , 那么 完全 没有 必 


形 ”has degree“ 近 


Ijk 


要 执行 概念 识别 过 程 。 而 目前 ， 中 文 植物 物种 多 样 性 
本 体 虽然 已 包含 4000 多 条 实例 , 但 是 不 同文 本 集 在 
描述 分 类 单元 模式 的 选择 、 所 使 用 术语 以 及 数据 表现 
形式 等 方面 都 存在 差异 ,因此 ,可 能 还 有 许多 概念 未 
纳入 现 有 领域 本 体 。 鉴 于 此 , 在 概念 标注 前 , 运用 CRF 
算法 检验 是 否 存 在 未 纳入 本 体 的 概念 。 

人 特征 选择 

中 文 是 由 独立 的 字 组 合成 具有 特定 语义 的 词 ,进而 依 
据 语 法 规则 组 织 成 名 形成 文本 ， 词 与 词 之 间 没 有 分 隔 标 志 。 
因此 , 使 用 CRF 算法 是 以 字 还 是 词 为 特征 , 一 直 存 在 分 歧 。 
课题 组 的 实验 结果 表明 ,以 词 为 特征 识别 中 文 植 物 物种 多 
样 性 描述 文本 中 的 未 登录 词 ， 其 性 能 优 于 以 字 为 特征 PH。 为 
了 优化 识别 性 能 ， 在 词 特征 的 基础 上 进一步 增加 词性 、 词 
长 、 相 关 度 、 信 息 粒 等 特征 。 

1) 词 性 。 提 取 领 域 本 体 中 的 概念 作为 用 户 词典 支持 
ICTCLAS 分 词 和 词性 标注 。ICTCLAS 将 用 户 词典 所 含 词 条 
的 词性 均 标 注 为 “un”。 对 于 未 包含 在 用 户 词典 中 的 字符 串 
在 ICTCLAS 的 切 分 和 词性 标注 结果 的 基础 上 拆 分 成 单字 ， 
并 赋予 所 标注 的 词性 标记 。 例 如 , ICTCLAS 赋予 “ 主 枝 ” 
“mn”( 名 词 ) 词 性 ， 若 其 未 包含 在 用 户 词典 中 ， 则 拆 分 为 “ 主 ” 和 
“ 枝 ”， 词 性 均 标 注 为 “n”。 

2) 词 长 。 指 词语 包含 的 字数 , 一般 介 于 1-5 之 间 。 

3) 相 关 度 。 相 关 度 反映 相 邻 字 之 间 结 合 的 紧密 程度 。 字 
P W 的 相关 度 如 下 所 示 : 


2 
n(njxnj5-nj5xn 
rel(W) (ni xni n x021) Xn2« X Ns] XI» (1) 
了 1* 


若 字 串 W 的 首 字 为 A, 次 字 为 B,， 则 n 为 语料库 所 有 二 
元 组 的 串 频 ， 即 n=nili+nlz+n2zi+n2?。 其 中 ,nil 为 首 字 为 A 次 
字 为 B 的 串 频 , ni 为 首 字 为 A 次 字 非 B 的 串 频 , ni 为 首 字 
dE A XFA B 的 串 频 , nz? 为 首 字 非 A 次 字 非 B 的 串 频 ; 
nj«—nj;*nj (i=1,2); nzn;jtnjj (J=1,2)。 

相关 度 的 值 是 连续 值 ， 需要 进行 离散 化 处 理 。 在 实验 的 
基础 上 ， 本 研究 将 其 等 频率 分 为 5 个 等 级 ， 即 按照 从 高 到 低 
的 顺序 , 将 值 最 大 的 20% 赋 了 予 “1”， 值 最 小 的 20908 T5", 
以 此 类 推 。 

448 E 48 E ST AUR RO GE 18] 4 8] Zr 8] A 
W $42 8. Jüde F Pp: 

H(W) - -Yplog(p) Q) 

其 中 ,p 表示 该 词 左右 连接 的 不 同 词 ( 字 ) 的 概率 。 

AÈ E Jl 4E XE HR, KAREMA IR: 计算 每 
AEG E48 8d48, EX BERAKTA 
Bà, MAFIEI A rgh’ ight), 说 明 该 字 ( 或 词 ) 倾 向 于 
与 右边 的 字 ( 或 词 ) 链 接 ， 左 边 更 可 能 是 词语 的 边界 ,否则 标 
16,7 Aft" (left) , 


@) 标 注 集 

本 研究 在 四 位 标注 集 BIEO 的 基础 上 定义 了 SBIEO 标 
注 集 。 其 中 , S(Single) 表 示 单 字 词 , B(Begin) 表 示 术 语 的 第 一 
个 字 , I(In) 表 示 中 间 的 字 , E(End) 表 示 最 后 一 个 字 , O(Out) 表 
示 当 前 字 不 在 术语 中 。 每 个 S 或 连续 的 BOJE 构成 一 个 术语 。 
例如 : 字符 串 “ 小 枝 多 少 密 被 短 伏 毛 ， 近 方形 ， 粗壮， 稍 弯 
曲 ， 散 生 皮 孔 ” 的 标注 结果 如 下 : 小 B/ 枝 E/ 多 少 O% O/ 
3k O/4& 0/ 伏 0/ 毛 0/， 0/ 近 0/ 方 形 Ol 0O/ 粗 壮 O/, 
O/ 稍 O/Z h 0/， OH& 0/ 生 O/ 皮 B/ 孔 E/。 

@ 工 具 与 特征 模板 

调用 CRF++0.58 作为 标注 工具 ， 以 词 、 词 性 、 词 长 、 相 
关 度 、 信 息 粒 为 特征 构建 模板 。 鉴 于 术语 词 长 一 般 不 超 $, 故 
将 窗口 长 度 设 为 5。 


3 植物 物种 多 样 性 文本 的 信息 抽取 实验 


3.1 样 本 

中 国 在 线 植物 志 (http://frps.eflora.cn) 收 录 了 301 
科 3 408 属 31 142 种 植物 的 科学 名 称 、 形 态 特 征 、 生 
态 环境 、 地 理 分 布 、 经 济 用 途 和 物候 期 等 信息 ,是 最 
具 影 响 力 的 中 文 植物 学 网 络 信息 源 之 一 卢 。 本 研究 利 
用 自主 开发 的 朴 虫 程序 ,从 该 网 站 获取 鼠 李 科 勾 儿 茶 
属 、 兰 科 角 盘 兰 属 和 儿 兰 属 各 17 个 物种 的 描述 文档 ， 
构成 测试 集 。 

以 人 工 方式 逐 句 分 析 文 本 内 容 , 建立 评价 抽取 结 
果 的 标准 答案 数据 集 。 该 数据 集 为 文档 - 子 句 -三 元 组 
的 映射 , 共 含 4734 个 信息 点 (三 元 组 )。 
3.2 ”性 能 评价 指标 

采用 准确 率 (Precision) 和 召回 率 (Recall) 评 价 信息 
抽取 性 能 ,同时 引入 下 值 作为 均衡 准确 率 和 召回 率 的 
指标 。 计 算 公 式 如 下 : 

被 准确 提取 的 三 元 组 数量 


Precision(P)= 提取 出 的 三 元 组 数量 n 
被 准确 提取 的 三 元 组 数量 
Recall(R) = 
ecall(R) 应 提取 出 的 三 元 组 数量 ú 
2xPxR 
=- 5 
P+R K 


3.3 ”实验 结果 及 分 析 

(1) 整体 抽取 性 能 统计 

表 2 显示 ， 系 统 从 测试 样本 中 共 提 取 4 697 条 
信息 ， 整 体 准确 率 、 召 回 率 分 别 约 为 0.86、0.85, F 
值 为 0.85。 准 确 率 和 召回 率 表现 均衡 ,， 抽取 性 能 较 
理想 。 
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表 2 抽取 性 能 统计 汇总 


描述 文档 提取 数 正确 数 遗漏 数 准确 率 召回 率 F 值 
鼠 李 科 勾 儿 茶 属 1 108 1 002 107 0.904332 0.903517 0.903924 
兰 科 忽 兰 属 1773 1472 436 0.830231 0.771488 0.799783 
兰 科 角 盘 兰 属 1 816 1 548 169 0.852423 0.901573 0.876309 
总 计 4 697 4 022 712 0.856291 0.849599 0.852932 


石 静 以 《中 国 高 等 植物 图 鉴 》 中 的 60 种 植物 的 描 
述 文本 作为 测试 样本 , WREE WEH PERSER 
等 12 个 科 。 特 征 描述 信息 抽取 的 平均 准确 率 和 召回 率 
分 别 为 0.868、0.7138, F 值 为 0.783409。 应 注意 , 本 
研究 是 将 依据 抽取 结果 构建 的 三 元 组 与 标准 答案 比 对 ， 
计算 准确 率 和 召回 率 ; 而 石 静 的 研究 则 是 依据 模板 填 
充 结果 计算 性 能 指标 。 两 者 采用 的 测试 样本 、 计 算 依 据 
都 不 相同 , 在 理论 上 不 宜 直接 比较 两 者 的 性 能 差异 。 

(2) 科 属 间 的 差异 分 析 

表 2 中 的 数据 显示 , 系统 抽取 不 同 科 、 属 描述 文档 
中 的 信息 , 性 能 可 能 存在 差异 。 利 用 SPSS 软 件 比 较 鼠 
李 科 与 兰 科 、 兰 科 的 儿 兰 属 与 角 盘 兰 属 描 述 文档 中 信 
息 的 抽取 性 能 (F 值 的 均值 ), 分 析 结 果 表 明 组 间 的 确 存 
在 差异 。 为 寻找 差异 产生 的 原因 , 按 描述 主体 重新 对 
三 组 文档 信息 的 抽取 性 能 进行 统计 ， 如 图 3 至 图 5 所 
示 。 从 图 4 与 图 3、 图 5 的 比较 可 知 ,， 狗 兰 属 样 本 中 葵 和 
根 的 描述 信息 抽取 效果 不 佳 是 导致 评价 指标 偏 低 的 主 
要 原因 。 当 然 , 这 并 不 意味 着 所 有 物种 茎 和 根 描述 信 
息 的 抽取 效果 一 定 不 理想 , 图 5 很 好 地 说 明了 这 一 点 。 
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信息 的 抽取 性 能 
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一 一 准确 率 -号 - 召回 率 一 一 F 值 

图 4 兰 科 忽 兰 属 样本 中 各 描述 主体 
信息 的 抽取 性 能 
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生长 形式 NE NE t wy 生长 区 域 
一 一 准确 率 号- 召回 率 一 一 F 值 
图 5 兰 科 角 盘 兰 属 样 本 中 各 描述 主体 
信息 的 抽取 性 能 

(3) 文档 间 的 差异 分 析 

更 进一步 地 , 笔者 希望 明确 科 属 间 的 抽取 性 能 
异 是 源 于 少数 极端 样本 的 影响 , 还 是 组 间 样 本 整体 的 
差异 所 导致 。 为 此 , 对 三 组 样本 中 的 文档 分 别 随机 分 
配 1-17 的 序号 ， 比 较 每 篇 文档 中 信息 的 抽取 性 能 。 从 
图 6、 图 7 能够 清楚 地 看 到 , 类 属相 同 的 物种 ,其 描述 
文本 信息 抽取 的 准确 率 、 召 回 率 虽 有 波动 , 但 总 体 比 
较 平 稳 。 这 表明 导致 科 属 间 性 能 差异 的 主要 原因 并 非 
来 自 个 例 的 影响 ,这 一 点 在 图 7 中 表现 尤为 清晰 。 

图 6、 图 7 同时 显示 , 9825788229 4. 8. 13 的 
文献 抽取 结果 的 召回 率 、 准 确 率 都 较 低 。 为 此 , 分 析 
这 三 篇 文献 中 对 茎 和 根 的 描述 语句 ,发 现 错误 原因 在 
于 对 “有 少数 稍 肉 质 而 被 毛 的 纤维 根 ” 的 解析 。 该 句 描 
述 的 是 附属 结构 “纤维 根 ”, 但 是 因 “ 而 ”这 一 关联 词 ， 
使 该 句 在 处 理 时 被 拆 分 为 两 个 单 句 , 破坏 了 原 有 语义 ， 
导致 描述 主体 判断 错误 。 
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图 7 单 篇 文档 的 召回 率 

(4) 存在 的 问题 

从 实验 结果 来 看 , 本 研究 获得 了 比较 理想 的 抽取 
结果 。 但 归纳 错 抽 和 漏 抽 的 实例 ， 发 现 仍 有 一 些 问 题 
有 待 解决 。 

中 以 比较 或 排除 方式 描述 。 壁 如 ,“ 较 中 裂片 长 很 多 或 稍 
较 长 "“ 雄 蓝 长 于 花 办 ”“ 除 背面 中 脉 近 基部 处 具 长 柔 毛 外 
余 均 无 毛 ”。 

@) 与 结构 部 位 关联 的 生长 趋势 描述 。 壁 如 “中 部 以 上 向 
先端 渐 狭 ”"、“ 向 末 略 变 狭 ”" “从 蕊 吃 下 向 外 伸 出 ”。 

加 具有 多 项 特征 值 的 描述 。 璧 如,“ 侧 脉 每 边 7-13 条 通常 
9-10 条 ”、“ 顶 端 钝 或 圆 形 稀 短 渐 尖 ”“ 叶 (1-)2 枚 极 罕 为 3 枚 ”。 


4 结 语 


本 研究 设计 并 实现 了 一 个 中 文 植物 物种 多 样 性 描 
述 文 本 信息 抽取 方案 , 性 能 (F 值 ) 达 到 0.85。 方案 的 设 
计 思 路 兼顾 适应 性 和 性 能 。 以 本 体 为 支撑 , 采取 语 段 、 
语句 、 概 念 逐 级 筛选 和 标注 的 策略 , 依据 规则 实现 描 
述 文本 中 信息 的 抽取 。 在 理论 上 , 该 方案 建立 的 框架 
能 支持 生物 物种 多 样 性 、 病 证 乃至 商品 等 多 种 描述 性 
文本 中 信息 的 抽取 。 在 应 用 方面 , 本 研究 不 仅 开 发 了 
一 套 实用 的 信息 抽取 系统 , 还 建立 了 一 个 较 完 善 的 植 
物 物种 多 样 性 领域 本 体 ， 同时 提出 了 一 个 比较 成 熟 的 
植物 物种 多 样 性 领域 概念 识别 方法 。 当 然 , 研究 还 可 
以 进一步 修正 和 完善 。 壁 如 ,以 上 所 提 及 影响 抽取 性 
能 的 三 个 问题 , 以 及 如 何 组 织 构建 的 三 元 组 集合 ， 
其 准确 地 表示 原文 语义 。 

(致谢 : 感谢 中 国 科学 院 植 物 研 究 所 文献 与 信息 中 心 刘 
凤 红 高 级 工程 师 、 南 京 林业 大 学 陈 金 慧 教授 在 本 体 构建 过 程 
中 给 予 的 支持 。) 
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Information Extraction from Chinese Plant Species Diversity 
Description Text 


Duan Yufeng Huang Sisi 
(Business School, East China Normal University, Shanghai 200241, China) 


Abstract: [Objective] To extract information from Chinese plant species diversity description text. [Methods] Take the 
plant species diversity domain ontology as the foundation, and adopt the strategy of stepwise selection and annotation 
on paragraph, sentence and concept. [Results] A sample including 4 734 information points is used to test. The value of 
extraction accuracy rate, recall rate and F-measure achieves 0.86, 0.85 and 0.85 respectively. [Limitations] In order to 
solve the problems on extracting information from description text, the rule set should be improved in the future. 
[Conclusions] The research scheme can fulfill the information extraction from Chinese plant species diversity 
description text effectively. 
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